检索结果

Select

1. 自动确定聚类中心的比较密度峰值聚类算法

郭佳, 韩李涛, 孙宪龙, 周丽娟

计算机应用 2021, 41 (3): 738-744. DOI: 10.11772/j.issn.1001-9081.2020071071

摘要（517）

PDF （2809KB）（546）

针对密度峰值聚类算法（DPC）不能自动确定聚类中心，并且聚类中心点与非聚类中心点在决策图上的显示不够明显的问题，设计了一种自动确定聚类中心的比较密度峰值聚类算法（ACPC）。该算法首先利用距离的比较量来代替原距离参数，使潜在的聚类中心在决策图中更加突出；然后通过二维区间估计方法进行对聚类中心的自动选取，从而实现聚类过程的自动化。仿真实验结果表明，在4个合成数据集上ACPC取得了更好的聚类效果；而在真实数据集上的Accuracy指标对比表明，在Iris数据集上，ACPC聚类结果可达到94%，与传统的DPC算法相比提高了27.3%，ACPC解决了交互式选取聚类中心的问题。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于带多数类权重的少数类过采样技术和随机森林的信用评估方法

田臣, 周丽娟

计算机应用 2019, 39 (6): 1707-1712. DOI: 10.11772/j.issn.1001-9081.2018102180

摘要（478）

PDF （895KB）（314）

针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题，提出了一种基于带多数类权重的少数类过采样技术和随机森林（MWMOTE-RF）结合的信用评估方法。首先，在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数；然后，在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测。使用受测者工作特征曲线下面积（AUC）作为分类评价指标，在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明，在相同数据集上，MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比，AUC值分别提高了18%和20%。与此同时，随机森林方法分别与合成少数类过采样技术（SMOTE）方法和自适应综合过采样（ADASYN）方法结合，MWMOTE-RF方法与它们相比，AUC值分别提高了1.47%和2.34%，从而验证了所提方法的有效性及其对分类器性能的优化。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于联合概率的多标签分类算法

何朋, 周丽娟

计算机应用 2015, 35 (3): 659-662. DOI: 10.11772/j.issn.1001-9081.2015.03.659

摘要（594）

PDF （673KB）（548）

针对多标签k邻域(ML-kNN)算法忽略了多个标签间可能存在的相关性的问题,提出了一种基于联合概率的RML-kNN多标签分类算法。首先,在样本空间遍历求得每个标签的先验概率;其次,根据样本k邻域内某个标签的概率分布计算在该标签取值的条件下样本k邻域内有m个该标签出现的条件概率;然后,提出使用多个标签在k邻域的联合概率分布作为多标签分类模型的方法,并在样本空间进行计算;最后,以最大化后验概率的方法推导出RML-kNN多标签分类模型。理论分析和实验论证表明,在SubSet Accuracy上最高达到0.9612,相比ML-kNN最多有2.25%的提升;在Hamming Loss上比RM-kNN有明显降低,最低达到0.0022;在Micro-FMeasure上最高可达到0.9767,相比ML-kNN最高可有2.88%的提升。实验结果表明,RML-kNN充分考虑了标签间相关性,分类效果优于ML-kNN算法。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于直觉模糊聚类的Web资源推荐方法

肖满生汪新凡周丽娟

计算机应用 2012, 32 (09): 2480-2482. DOI: 10.3724/SP.J.1087.2012.02480

摘要（1117）

PDF （687KB）（534）

在Web资源分类中,针对传统基于用户兴趣的方法不能准确反映用户兴趣的变化以及难以区分资源内容的品质和风格等问题,提出一种基于直觉模糊C均值聚类的Web资源聚类推荐方法。该方法首先根据用户兴趣度将Web资源表示为直觉模糊数,然后应用直觉模糊信息集成理论进行资源分类,最后实现向用户推荐相似或相近资源。理论分析和实验表明,该方法比传统的模糊C均值以及协同过滤方法在推荐质量上有很大的提高。

参考文献 | 相关文章 | 多维度评价

Select

5. 视图实体化算法设计与实现

周丽娟郝忠孝

计算机应用

摘要（1554）

PDF （833KB）（640）

数据仓库中的信息以视图的形式存储，基于代价因素，要选择部分视图实体化去完成查询要求。首先提出视图实体化的代价模型，然后提出使用遗传算法及其改进算法来解决该问题的方法和策略。最后，通过实验表明提出的算法找到了近似最优解。